We introduce a linguistically enhanced combination of pre-training methods for transformers. The pre-training objectives include POS-tagging, synset prediction based on semantic knowledge graphs, and parent prediction based on dependency parse trees. Our approach achieves competitive results on the Natural Language Inference task, compared to the state of the art. Specifically for smaller models, the method results in a significant performance boost, emphasizing the fact that intelligent pre-training can make up for fewer parameters and help building more efficient models. Combining POS-tagging and synset prediction yields the overall best results.
translated by 谷歌翻译
We introduce KPI-Check, a novel system that automatically identifies and cross-checks semantically equivalent key performance indicators (KPIs), e.g. "revenue" or "total costs", in real-world German financial reports. It combines a financial named entity and relation extraction module with a BERT-based filtering and text pair classification component to extract KPIs from unstructured sentences before linking them to synonymous occurrences in the balance sheet and profit & loss statement. The tool achieves a high matching performance of $73.00$% micro F$_1$ on a hold out test set and is currently being deployed for a globally operating major auditing firm to assist the auditing procedure of financial statements.
translated by 谷歌翻译
我们通过解决普通微分方程的系统来探讨培训支持向量机进行二进制分类的优点。因此,我们对机器学习问题进行了连续的时间视角,这对于(重新)新兴硬件平台(例如模拟计算机或量子计算机)可能会引起人们的关注。
translated by 谷歌翻译
我们提出了KPI-Bert,该系统采用新颖的实体识别方法(NER)和关系提取(RE)来提取和链接关键绩效指标(KPIS),例如来自现实世界中德国财务文件的公司的“收入”或“利息费用”。具体而言,我们引入了一种端到端可训练的体系结构,该体系结构基于来自变形金刚(BERT)的双向编码器表示,该架构将复发性神经网络(RNN)与条件标签屏蔽结合到依次标记实体之前,然后再对其关系进行分类。我们的模型还引入了一种可学习的基于RNN的合并机制,并通过明确过滤不可能的关系来结合域专家知识。我们在德国财务报告的新实用数据集上实现了更高的预测性能,表现优于几个强大的基础线,包括基于最新的跨度实体标签方法。
translated by 谷歌翻译
基于能量功能的安全证书可以为复杂机器人系统的安全控制任务提供可证明的安全保证。但是,所有有关基于学习的能量功能合成的最新研究仅考虑可行性,这可能会导致过度保存并导致效率较低的控制器。在这项工作中,我们提出了幅度的正规化技术,以通过降低能量功能内部的保守性,同时保持有希望的可证明的安全保证,以提高安全控制器的效率。具体而言,我们通过能量函数的幅度来量化保守性,并通过在合成损失中增加幅度的正则化项来降低保守性。我们提出了使用加固学习(RL)进行合成的SAFEMR算法来统一安全控制器和能量功能的学习过程。实验结果表明,所提出的方法确实会降低能量功能的保守性,并在控制器效率方面优于基准,同时确保安全性。
translated by 谷歌翻译
探索搜索空间是几十年来吸引研究人员兴趣的最不可预测的挑战之一。处理不可预测性的一种方法是表征搜索空间并采取相应的行动。特征良好的搜索空间可以帮助将问题状态映射到一组运算符,以生成新的问题状态。在本文中,已经使用最知名的机器学习方法分析了基于景观分析的功能集,以确定最佳功能集。但是,为了处理问题的复杂性并引起共同点以跨领域转移经验,最具代表性特征的选择仍然至关重要。提出的方法分析了一组特征的预测性,以确定最佳分类。
translated by 谷歌翻译
为设计控制器选择适当的参数集对于最终性能至关重要,但通常需要一个乏味而仔细的调整过程,这意味着强烈需要自动调整方法。但是,在现有方法中,无衍生物的可扩展性或效率低下,而基于梯度的方法可能由于可能是非差异的控制器结构而无法使用。为了解决问题,我们使用新颖的无衍生化强化学习(RL)框架来解决控制器调整问题,该框架在经验收集过程中在参数空间中执行时间段的扰动,并将无衍生策略更新集成到高级参与者 - 批判性RL中实现高多功能性和效率的体系结构。为了证明该框架的功效,我们在自动驾驶的两个具体示例上进行数值实验,即使用PID控制器和MPC控制器进行轨迹跟踪的自适应巡航控制。实验结果表明,所提出的方法的表现优于流行的基线,并突出了其强大的控制器调整潜力。
translated by 谷歌翻译
最近基于进化的零级优化方法和基于策略梯度的一阶方法是解决加强学习(RL)问题的两个有希望的替代方案。前者的方法与任意政策一起工作,依赖状态依赖和时间扩展的探索,具有健壮性的属性,但遭受了较高的样本复杂性,而后者的方法更有效,但仅限于可区分的政策,并且学习的政策是不太强大。为了解决这些问题,我们提出了一种新颖的零级演员 - 批评算法(ZOAC),该算法将这两种方法统一为派对演员 - 批判性结构,以保留两者的优势。 ZOAC在参数空间,一阶策略评估(PEV)和零订单策略改进(PIM)的参数空间中进行了推出集合,每次迭代中都会进行推出。我们使用不同类型的策略在广泛的挑战连续控制基准上进行广泛评估我们的方法,其中ZOAC优于零阶和一阶基线算法。
translated by 谷歌翻译
在强化学习(RL)的试验和错误机制中,我们期望学习安全的政策时出现臭名昭着的矛盾:如何学习没有足够数据和关于危险区域的先前模型的安全政策?现有方法主要使用危险行动的后期惩罚,这意味着代理人不会受到惩罚,直到体验危险。这一事实导致代理商也无法在收敛之后学习零违规政策。否则,它不会收到任何惩罚并失去有关危险的知识。在本文中,我们提出了安全设置的演员 - 评论家(SSAC)算法,它使用面向安全的能量函数或安全索引限制了策略更新。安全索引旨在迅速增加,以便潜在的危险行动,这使我们能够在动作空间上找到安全设置,或控制安全集。因此,我们可以在服用它们之前识别危险行为,并在收敛后进一步获得零限制违规政策。我们声称我们可以以类似于学习价值函数的无模型方式学习能量函数。通过使用作为约束目标的能量函数转变,我们制定了受约束的RL问题。我们证明我们基于拉格朗日的解决方案确保学习的政策将收敛到某些假设下的约束优化。在复杂的模拟环境和硬件循环(HIL)实验中评估了所提出的算法,具有来自自动车辆的真实控制器。实验结果表明,所有环境中的融合政策达到了零限制违规和基于模型的基线的相当性能。
translated by 谷歌翻译
安全是使用强化学习(RL)控制复杂动态系统的主要考虑,其中安全证书可以提供可提供的安全保证。有效的安全证书是指示安全状态具有低能量的能量功能,存在相应的安全控制策略,允许能量函数始终消散。安全证书和安全控制政策彼此密切相关,并挑战合成。因此,现有的基于学习的研究将它们中的任何一种视为先验知识,以便学习另一个知识,这限制了它们与一般未知动态的适用性。本文提出了一种新的方法,同时综合基于能量函数的安全证书,并使用CRL学习安全控制策略。我们不依赖于有关基于型号的控制器或完美的安全证书的先验知识。特别是,我们通过最小化能量增加,制定损耗功能来优化安全证书参数。通过将此优化过程作为外循环添加到基于拉格朗日的受限增强学习(CRL),我们共同更新策略和安全证书参数,并证明他们将收敛于各自的本地Optima,最佳安全政策和有效的安全性证书。我们在多个安全关键基准环境中评估我们的算法。结果表明,该算法学习无限制违规的可信安全的政策。合成安全证书的有效性或可行性也在数值上进行了验证。
translated by 谷歌翻译